【月末特辑】9月最火AI论文 | 群体RL共享降本；SAPO让旧机也能训大模型

Update: 2025-10-02

Description

本期的 10 篇论文如下：

[00:29 ] TOP1(🔥640) | 🤝 Sharing is Caring: Efficient LM Post-Training with Collective RL Experience Sharing（共享即关爱：基于集体RL经验共享的高效大模型后训练）

[02:49 ] TOP2(🔥341) | 🔒 A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code（A.S.E：一个用于评估AI生成代码安全的仓库级基准）

[04:59 ] TOP3(🔥218) | 🤖 VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model（VLA-Adapter：面向小型视觉-语言-动作模型的有效范式）

[07:07 ] TOP4(🔥212) | 🤖 The Landscape of Agentic Reinforcement Learning for LLMs: A Survey（面向大语言模型的智能体强化学习全景：一项综述）

[09:17 ] TOP5(🔥207) | 🤔 Drivel-ology: Challenging LLMs with Interpreting Nonsense with Depth（废话学：用深度解读无意义内容挑战大型语言模型）

[11:19 ] TOP6(🔥183) | 🤔 Why Language Models Hallucinate（语言模型为何产生幻觉）

[13:06 ] TOP7(🔥174) | 🧠 A Survey of Reinforcement Learning for Large Reasoning Models（大型推理模型的强化学习综述）

[15:32 ] TOP8(🔥160) | 🎬 LongLive: Real-time Interactive Long Video Generation（LongLive：实时交互式长视频生成框架）

[18:13 ] TOP9(🔥145) | 💡 Reverse-Engineered Reasoning for Open-Ended Generation（面向开放式生成的逆向工程推理）

[20:27 ] TOP10(🔥140) | 🤖 A Survey of Scientific Large Language Models: From Data Foundations to Agent Frontiers（科学大型语言模型综述：从数据基础到智能体前沿）

</figure>

【关注我们】

您还可以在以下平台找到我们，获得播客内容以外更多信息

小红书: AI速递

Comments

In Channel

2025.10.23 | 线性注意力显存降十倍；动态裁剪PPO稳提分

2025-10-2310:46

2025.10.22 | LightMem压缩记忆千倍提速12倍；闭环世界模型微调8万数据反超巨兽

2025-10-2211:14

2025.10.21 | 模型不懂光影折射；小模型也能写报告

2025-10-2110:06

2025.10.20 | RPC剪枝提速保准；OmniVinci小数据跨模态称王

2025-10-2011:11

【周末特辑】10月第3周最火AI论文 | 量化噪声变探索，单卡跑RL；冻结编码器放语义，DiT生成新纪录

2025-10-1813:30

2025.10.17 | AI眼镜预判式服务；视频生成补想象力

2025-10-1708:40

2025.10.16 | UniMoE一统语音音乐；注意力图点亮大模型推理

2025-10-1610:13

2025.10.15 | 像素级自监督ViT刷新生成基准；多智能体评测网文翻译新标尺

2025-10-1510:38

2025.10.14 | 量化误差变奖励，单卡训32B；面向多模态大模型的音视频评测基准

2025-10-1411:24

2025.10.13 | 桌面交互预训练解锁机器人潜能；统一模型赋予相机空间想象力

2025-10-1310:10

【周末特辑】10月第2周最火AI论文 | 递归小模型刷爆推理榜；未来经验点亮零奖励学习

2025-10-1211:39

2025.10.10 | 早期经验的Agent Learning；图文交错反思链跃升至24.9%

2025-10-1010:00

2025.10.09 | Ming-UniVision统一视觉词表；KV-Cache直连让大模型秒聊

2025-10-0911:46

2025.10.08 | TaTToo用外挂代码干翻大模型；4B小模型32步逼近闭源巨头

2025-10-0811:16

2025.10.07 | 论文秒变演讲；Video-LMM后训练突破

2025-10-0711:02

2025.10.06 | 15B小模型追平DeepSeek-R1；渐进蒸馏128 token省八成算力

2025-10-0611:02

【周末特辑】10月第1周最火AI论文 | Transformer长出大脑的壳；LongLive把长视频做成直播

2025-10-0512:14

2025.10.03 | LongCodeZip删得快准；迈向分钟级高质量视频生成

2025-10-0311:19

2025.10.02 | MCTS破局RLVR瓶颈；GEM开源智能体训练场

2025-10-0210:32

【月末特辑】9月最火AI论文 | 群体RL共享降本；SAPO让旧机也能训大模型

2025-10-0223:10

00:00

【月末特辑】9月最火AI论文 | 群体RL共享降本；SAPO让旧机也能训大模型

#box-pro-ellipsis-17613045175633{-webkit-line-clamp:2;}【月末特辑】9月最火AI论文 | 群体RL共享降本；SAPO让旧机也能训大模型

【月末特辑】9月最火AI论文 | 群体RL共享降本；SAPO让旧机也能训大模型

【月末特辑】9月最火AI论文 | 群体RL共享降本；SAPO让旧机也能训大模型